在本文中,我们研究了一个学习问题,其中预报师仅观察部分信息。通过适当地重新缩放问题,我们在瓦斯坦斯坦空间上启发了一个有限的PDE,它表征了预报员的遗憾的渐近行为。使用验证类型参数,我们表明,可以通过找到此抛物线PDE的合适的平滑子/超溶液来解决获得遗憾界限和有效算法的问题。
translated by 谷歌翻译
Rearrangement puzzles are variations of rearrangement problems in which the elements of a problem are potentially logically linked together. To efficiently solve such puzzles, we develop a motion planning approach based on a new state space that is logically factored, integrating the capabilities of the robot through factors of simultaneously manipulatable joints of an object. Based on this factored state space, we propose less-actions RRT (LA-RRT), a planner which optimizes for a low number of actions to solve a puzzle. At the core of our approach lies a new path defragmentation method, which rearranges and optimizes consecutive edges to minimize action cost. We solve six rearrangement scenarios with a Fetch robot, involving planar table puzzles and an escape room scenario. LA-RRT significantly outperforms the next best asymptotically-optimal planner by 4.01 to 6.58 times improvement in final action cost.
translated by 谷歌翻译
从示范中学习(LFD)提供了一种方便的手段,可以在机器人固有坐标中获得示范时为机器人提供灵巧的技能。但是,长期和复杂技能中复杂错误的问题减少了其广泛的部署。由于大多数此类复杂的技能由组合的较小运动组成,因此将目标技能作为一系列紧凑的运动原语似乎是合理的。在这里,需要解决的问题是确保电动机以允许成功执行后续原始的状态结束。在这项研究中,我们通过提议学习明确的校正政策来关注这个问题,当时未达到原始人之间的预期过渡状态。校正策略本身是通过使用最先进的运动原始学习结构,条件神经运动原语(CNMP)来学习的。然后,学识渊博的校正政策能够以背景方式产生各种运动轨迹。拟议系统比学习完整任务的优点在模拟中显示了一个台式设置,其中必须以两个步骤将对象通过走廊推动。然后,通过为上身类人生物机器人配备具有在3D空间中的条上打结的技巧,显示了所提出的方法在现实世界中进行双重打结的适用性。实验表明,即使面对校正案例不属于人类示范集的一部分,机器人也可以执行成功的打结。
translated by 谷歌翻译
通过基于文本的符号表示棋盘游戏及其位置,可以实现NLP应用程序的可能性。语言模型可以帮助您深入了解各种有趣的问题,例如游戏的无监督学习规则,检测玩家的行为模式,玩家归因,并最终学习游戏以击败最新技术。在这项研究中,我们将BERT模型应用于简单的NIM游戏,以在噪音的存在下进行几次学习架构的噪声分析。我们通过三个虚拟玩家,即Nim Guru,Random Player和Q-Learner分析了模型性能。在第二部分中,我们将游戏学习语言模型应用于国际象棋游戏,以及一系列带有详尽百科全书开口的大师游戏。最后,我们已经表明,模型实际上可以学习国际象棋游戏的规则,并且可以在类别的评分级别上与Stockfish一起生存。
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
在本文中,我们研究了如何在视觉和语言(V+L)表示学习中使用蒙版的信号建模。与其独立开发蒙面语言建模(MLM)和蒙面图像建模(MIM),我们建议建立关节蒙面的视觉和语言建模,其中一种模态的掩盖信号是在另一种方式的帮助下重建的。这是由图像文本配对数据的性质和文本传达几乎相同的信息但以不同格式传达的。在另一种模态下进行的一种模式的掩盖信号重建也可以隐式学习语言令牌和图像贴片之间的跨模式对齐。我们对各种V+L任务的实验表明,该建议的方法不仅可以通过使用大量数据来实现最先进的性能,而且还可以通过有限的培训数据的制度优于其他竞争对手。
translated by 谷歌翻译
在本文中,我们提出了一个概念学习体系结构,该构建结构使机器人通过与不同数量的对象进行交互来通过自我探索来构建符号。我们的目的是允许机器人在没有约束的情况下学习概念,例如固定数量的相互作用对象或预定义的符号结构。因此,寻求的体系结构应该能够为可以抓住的单个对象,无法抓住的对象堆栈或其他复合动态结构构建符号。为此,我们提出了一种新颖的体系结构,这是一个具有二进制激活层的自我牵键的预测编码器网络。我们通过机器人操纵设置显示了拟议网络的有效性,该设置涉及不同数量的刚性对象。提出的网络使用机器人的连续感觉运动体验来形成效应预测因子和符号结构,以分散方式描述机器人的相互作用。我们表明,使用发现的符号,机器人获得了推理功能来编码不同配置中各种对象的交互动力学。例如,机器人可以认为,如果机器人移动下面的对象,另一个对象顶部(可能的多个数字)对象将一起移动。我们还表明,发现的符号可用于计划通过训练高级神经网络来实现目标,从而纯粹的象征性推理。
translated by 谷歌翻译
我们介绍了Amazon Berkeley对象(ABO),这是一个新的大型数据集,旨在帮助弥合真实和虚拟3D世界之间的差距。ABO包含产品目录图像,元数据和艺术家创建的3D模型,具有复杂的几何形状和与真实的家用物体相对应的物理基础材料。我们得出了具有挑战性的基准,这些基准利用ABO的独特属性,并测量最先进的对象在三个开放问题上的最新限制,以了解实际3D对象:单视3D 3D重建,材料估计和跨域多视图对象检索。
translated by 谷歌翻译
由于Pandemics和远程工作环境的优势,远程审查和求职面试获得了普及,并变得不可或缺。大多数公司和学术机构利用这些系统为他们的招聘流程以及在线考试。然而,远程检查系统的一个关键问题是在可靠的环境中进行考试。在这项工作中,我们展示了一个作弊分析管道,用于在线访谈和考试。该系统仅需要候选人的视频,在考试期间记录。然后采用作弊检测管道来检测另一个人,电子设备使用和候选缺席状态。管道由面部检测,面部识别,对象检测和面部跟踪算法组成。为了评估管道的性能,我们收集了私人视频数据集。视频数据集包括作弊活动和清洁视频。最终,我们的管道提供了一种有效和快速的指导,可以在在线面试和考试视频中检测和分析作弊活动。
translated by 谷歌翻译
我们提出了一种新颖的通用方法,该方法可以找到动作的,离散的对象和效果类别,并为非平凡的行动计划建立概率规则。我们的机器人使用原始操作曲目与对象进行交互,该曲目被认为是早先获取的,并观察到它在环境中可以产生的效果。为了形成动作界面的对象,效果和关系类别,我们在预测性的,深的编码器折线网络中采用二进制瓶颈层,该网络以场景的形象和应用为输入应用的动作,并在场景中生成结果效果在像素坐标中。学习后,二进制潜在向量根据机器人的相互作用体验代表动作驱动的对象类别。为了将神经网络代表的知识提炼成对符号推理有用的规则,对决策树进行了训练以复制其解码器功能。概率规则是从树的决策路径中提取的,并在概率计划域定义语言(PPDDL)中表示,允许现成的计划者根据机器人的感觉运动体验所提取的知识进行操作。模拟机器人操纵器的建议方法的部署使发现对象属性的离散表示,例如``滚动''和``插入''。反过来,将这些表示形式用作符号可以生成有效的计划来实现目标,例如建造所需高度的塔楼,证明了多步物体操纵方法的有效性。最后,我们证明了系统不仅通过评估其对MNIST 8个式式域的适用性来限于机器人域域,在该域​​中,学习的符号允许生成将空图块移至任何给定位置的计划。
translated by 谷歌翻译